Penurunan kualitas software dan biaya perbaikan yang tinggi dapat diakibatkan kesalahan atau cacat pada software. Prediksi cacat software sangat penting di dalam software engineering, terutama dalam mengatasi masalah efektifitas dan efisiensi sehingga dapat meningkatkan kualitas software. Neural Network (NN) merupakan algoritma klasifikasi yang telah terbukti mampu mengatasi masalah data nonlinear dan memiliki sensitifitas yang tinggi terhadap suatu data serta mampu menganalisa data yang besar. Dataset NASA MDP merupakan data metric yang nonlinear perangkat lunak yang biasa digunakan untuk penelitian software defect prediction (prediksi cacat software). Terdapat 62 penelitian dari 208 penelitian menggunakan dataset NASA. NASA MDP memiliki kelemahan yaitu kelas yang tidak seimbang sehingga dapat menurunkan kinerja dari model prediksi cacat software. Untuk menangani ketidakseimbangan kelas dalam dataset NASA MDP adalah dengan menggunakan metode level data yaitu Random Under Sampling (RUS). RUS ditujukan untuk memperbaiki ketidakseimbangan kelas. Metode yang diusulkan untuk menangani ketidakseimbangan kelas pada Neural Network (NN) adalah penerapan RUS. Eksperimen yang diusulkan untuk membandingkan hasil kinerja Neural Network sebelum dan sesudah diterapkan metode RUS, serta dibandingkan dengan model yang lainnya. Hasil Eksperimen rata-rata AUC pada NN (0.80) dan NN+RUS (0.82). Hasil uji Wilcoxon dan Friedman menunjukan bahwa bahwa AUC NN+RUS memiliki perbedaan yang signifikan dengan NN dengan p-value wilcoxon = 0.002 dan p-value friedman = 0.003 (p<0.05). Menurut uji friedman terdapat perbedaan AUC yang signifikan antara NN+RUS dengan NN, NN+SMOTE, NB, dan C45 karena nilai p-value < 0.0001. Maka dapat disimpulkan bahwa penerapan model RUS terbukti dapat menangani masalah ketidakseimbangan kelas pada prediksi cacat software berbasis neural network.
展开▼
机译:软件质量下降和高昂的维修成本可能是由软件中的错误或缺陷引起的。软件缺陷的预测在软件工程中非常重要,尤其是在克服有效性和效率问题以提高软件质量方面。神经网络(NN)是一种分类算法,已被证明能够克服非线性数据的问题,对数据具有很高的敏感性,并且能够分析大数据。 NASA MDP数据集是一种非线性数据度量软件,通常用于软件缺陷预测研究。使用NASA数据集的208项研究中有62项研究。 NASA MDP具有类不平衡的缺点,因此会降低软件缺陷预测模型的性能。要处理NASA MDP数据集中的类不平衡问题,请使用数据级别方法,即随机欠采样(RUS)。 RUS旨在纠正类别失衡。所提出的在神经网络上处理类不平衡的方法是RUS的应用。拟议的实验是比较RUS方法应用前后的神经网络性能结果,以及与其他模型的比较结果。结果:在NN(0.80)和NN + RUS(0.82)上进行平均AUC实验。 Wilcoxon和Friedman测试结果表明,AUC NN + RUS与p值Wilcoxon = 0.002和Friedman p值= 0.003的NN有显着差异(p <0.05)。根据Friedman的检验,因为p值<0.0001,所以NN + RUS与NN,NN + SMOTE,NB和C45之间的AUC存在显着差异。因此可以得出结论,证明RUS模型的应用能够处理基于神经网络的软件缺陷预测中的类不平衡问题。
展开▼